خوشه بندی خودکار داده های مختلط با استفاده از الگوریتم ژنتیک

Authors

masoud yaghini assistance professor of school of railway engineering - iran university of science and technology

mahdi vard msc, school of railway engineering - iran university of science and technology

abstract

مساله خوشه بندی به منظور کمینه کردن مجموع مجذور انحراف، یک مساله غیر خطی و غیر محدب بوده و دارای تعداد زیادی نقاط بهینه محلی است. در مسائل خوشه­بندی در دنیای واقعی، اغلب با مجموعه داده­هایی مواجهیم که از ترکیبی از مقادیر عددی و دسته­ای تشکیل شده­اند. در حالیکه اغلب روشهای خوشه­بندی موجود تنها بر روی داده­های عددی از کارایی مناسبی برخوردارند و قابلیت استفاده بر روی داده­های مختلط را ندارند. از سوی دیگر، بیشتر روشهای سنتی، تعداد خوشه­ها را به عنوان ورودی از کاربر طلب می­کنند. در حالیکه در بیشتر موارد تعداد خوشه­ها برای کاربر مقداری نامعلوم است و حدس زدن مقدار آن نیز به خصوص در مورد مجموعه داده­های بزرگ کاری مشکل و حتی غیرممکن است. در این مقاله قصد داریم تا با بهره­گیری از روشی دقیق­تر جهت اندازه­گیری فاصله میان مقادیر دسته­ای،  روش جدیدی را برای خوشه­بندی داده­های مختلط ارائه نماییم که نیازی به تعیین تعداد خوشه­ها به عنوان ورودی الگوریتم نداشته و  قادر است همزمان با خوشه­بندی داده ها، مقدار بهینه برای تعداد خوشه­ها را محاسبه نماید. در روش پیشنهادی معکوس شاخص davies-bouldin به عنوان تابع برازش در نظر گرفته شده و به منظور جستجوی فضای جواب از الگوریتم ژنتیک استفاده می­شود. برای ارزیابی عملکرد الگوریتم از دو گروه از داده های استاندارد و شبیه­سازی شده استفاده شده است. نتایج بدست آمده، عملکرد بسیار بالای الگوریتم پیشنهادی را نشان می­دهد

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

خوشه‌بندی خودکار داده‌های مختلط با استفاده از الگوریتم ژنتیک

In the real world clustering problems, it is often encountered to perform cluster analysis on data sets with mixed numeric and categorical values. However, most existing clustering algorithms are only efficient for the numeric data rather than the mixed data set. In addition, traditional methods, for example, the K-means algorithm, usually ask the user to provide the number of clusters. In this...

full text

یک روش ترکیبی خوشه بندی مبتنی بر الگوریتم ژنتیک با استفاده از عملگر های جدید تغییر

  The clustering problem under the criterion of minimum sum of squares is a non-convex and non-linear program, which possesses many locally optimal values, resulting that its solution often being stuck at locally optimal values and therefore cannot converge to global optima solution. In this paper, we introduce several new variation operators for the proposed hybrid genetic algorithm for the cl...

full text

تعیین توصیفگرهای بهینه در خوشه بندی داده های لیدار با استفاده از الگوریتم ژنتیک

در سال­های اخیر، تکنولوژی لیدار به عنوان یک تکنولوژی کارآمد در کسب اطلاعات سه­بعدی از زمین شناخته شده و هر روز بیش از پیش مورد توجه مهندسین و متخصصان مهندسی ژئوماتیک قرار می­گیرد. استخراج عوارض از داده­های لیدار به عنوان یکی از مسائل مهم در پردازش این اطلاعات به  شمار می­آید. یکی از راه­های استخراج اتوماتیک عوارض از این داده­ها استفاده از الگوریتم­های خوشه­بندی می‍باشد. تعیین روش بهینه خوشه­بند...

full text

جداسازی خودکار کانی های موجود در مقاطع نازک سنگ ها با استفاده از الگوریتم های پردازش تصویر و خوشه بندی

جداسازی خودکار کانی‌ های موجود در مقاطع نازک با استفاده از روش‌های پردازش تصویر، یکی از موضوعاتی است که در سال‌های اخیر مورد توجه زمین‌ شناسان قرار گرفته است. سنگ‌ها اصلی‌ترین منبع اطلاعاتی زمین‌ شناسان می‌باشند، و یکی از روش‌های متداول مطالعه سنگ‌ها، تهیه مقاطع نازک از آن‌ها و بررسی این مقاطع با استفاده از میکروسکوپ‌ های انکساری قطبی کننده نور است. همچنین جداسازی کانی‌ های موجود در مقاطع نازک،...

full text

بررسی میزان تأثیر داروهای درمان ناباروری در بیماران نابارور با استفاده از الگوریتم خوشه بندی و تکنیک های داده کاوی

Background and purpose: The rate of infertility has increased throughout the world. Data mining is a new method for analyzing information from databases. Few studies are done regarding infertility and using data mining in describing and predicting different treatment methods and factors influencing these methods. This paper proposes a model for evaluating the efficacy of different drugs in trea...

full text

بهینه سازی زمان بندی الگوریتم های موازی با استفاده از الگوریتم ژنتیک

In scheduling, a set of machines in parallel is a setting that is important, from both the theoretical and practical points of view. From the theoretical viewpoint, it is a generalization of the single machine scheduling problem. From the practical point of view the occurrence of resources in parallel is common in real-world. When machines are computers, a parallel program can be conceived as a...

full text

My Resources

Save resource for easier access later


Journal title:
بین المللی مهندسی صنایع و مدیریت تولید

جلد ۲۳، شماره ۲، صفحات ۱۸۷-۱۹۷

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023